Open LLM Leaderboard
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard HuggingFaceH4/open_llm_leaderboard
オープンソースLLMのベンチマーク比較
以下の4つのペンチマークで評価する
AI2 Reasoning Challenge
小学校高学年向けの科学問題集
HellaSwag
常識的な推論をテストするもので、人間にとっては簡単(~95%)だが、SOTAモデルにとっては難しい
MMLU
テキストモデルのマルチタスク精度を測定するためのテスト
初等数学、米国史、コンピュータサイエンス、法律など、57のタスクに対応
Truthful QA MC
言語モデルが質問に対する答えを生成する際に、真実であるかどうかを測定する
LLMベンチマーク